查看原文
其他

北京国际大数据交易所隆重发布首批100个人工智能大模型高质量训练数据集

北数所 北京国际大数据交易所
2024-09-15




3月29日,以“数据驱动,智绘未来”为主题的2024 北京AI原生产业创新大会暨北京数据基础制度先行区成果发布会在北京经济技术开发区(北京亦庄)举办。

北京金控集团党委书记、董事长,北京国际大数据交易所董事长范文仲发表专题演讲——“发挥数据要素潜能 推动人工智能产业高地建设”。

当前,我国人工智能的发展需要突破两大瓶颈问题,一是缺乏高质量的训练数据,二是缺乏满足智能运算要求的算力。从数据来看,人工智能大模型的训练越来越依赖高质量数据集的提供。企业要发展人工智能技术,往往缺乏数量足够大、合法合规、可用度高、成本适宜的多模态数据集。目前训练数据集涉及的知识产权合规性问题也是一大难点。据此,范文仲董事长在会上建议:“在这个方面,我们建议政府出台法规,鼓励敏感的大模型数据进场交易,使用避风港原则和发展人工智能训练保险产品,不断降低人工智能模型训练的合规风险。

会上,北京国际大数据交易所牵头正式发布首批100个人工智能大模型高质量训练数据集。本批数据集首次汇聚了来自中国科学院大气物理所、北京市科学技术研究院、中国知网、中汽智联、北方健康、中文在线、中国搜索、牡丹集团、瑞莱智慧等36家机构及企业提供的非公开数据集作为大模型语料训练数据。

数据集内容覆盖科技创新、金融服务、医疗健康、医药研发、自动驾驶、气象服务、商业航天、影视创作等20多个应用场景,共计100余个语料数据,数据总量逾150PB,涵盖了专业知识问答、中外论文期刊、古今文化书籍、互联网舆情资讯、知识产权与专利、多语种音视频、教学资源题库、科研数据、驾驶环境场景数据、高清图片等多领域、多模态数据语料。

通过北数所进行人工智能数据集进场交易,将更好的为模型训练提供更加合规可靠、便捷化、规模化的数据服务,进一步提高数据来源合规性,降低数据交易成本。北数所通过支持北京人工智能训练基地的数据导入,可控计量,建设了数据方、模型方、算力方的有效拉通和分润机制,这在国内尚属首次。

未来,北数所将协同产学研各界,依托我市政策优势,持续探索人工智能大模型训练的合规、安全、便捷、高效的可行路径,构建高质量模型训练语料生态,积极推动高价值数据训练集和智能算力进场交易,不断提高人工智能模型训练的合规性,增加透明度,共同打造人工智能协同创新产业合作高地,推动北京数字经济高质量发展。


END

修改于
继续滑动看下一个
北京国际大数据交易所
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存